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摘要 : [目的 /意义 ] 跨 领 域 情感 分 类 仍 是 亟 需 重 点 研究 的 问题 之 一 。 [方法 /过 程 ] 借助 情感 无 关 词 ， 
通过 谱 聚 类 算法 构建 源 领域 与 目标 领域 的 跨 域 情感 特征 词 答 ， 将 谱 聚 类 得 到 的 情感 词 特征 与 位 置 特征 、 关 
键 词 特征 、 词 性 特征 融入 逻辑 回归 分 类 算法 中 ， 实 现 基于 多 特征 融合 的 跨 领 域 情 感 分 类 算法 ; 并 以 用 户 评 
论 数据 进行 验证 。 [ 结果 /结论 ] 研究 结果 表明 ，CDFF(Cross Domain pulse Four Factor) 算法 可 有 效 实现 跨 


域 用 户 的 情感 分 类 ， 为 跨 领 域 情感 分 类 研究 提供 借鉴 。 


关键 词 ， 跨 域 情感 分 类 ”多 特征 融合 ” 谱 聚 类 迁移 学 习 
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四 引言 

互联 网 用 户 的 交互 行为 产生 了 大 量 评论 数 
据 ， 如 客户 购买 某 商品 后 的 评论 、 微 博 用 户 针对 
热点 话题 的 评论 等 。 这 些 交 互 数 据 中 隐 含 着 用 
户 对 某 类 事物 的 情感 倾向 ， 它 对 构建 用 户 兴趣 模 
型 、 产 生 推荐 结果 具有 重要 实践 意义 。 情 感 分 类 
即 根据 评论 数据 将 用 户 情感 分 为 两 类 : 积极 和 消 
极 ， 虽 然 人 们 可 以 很 容易 从 某 条 评论 数据 中 推测 
出 当时 评论 者 的 情感 ， 但 对 于 机 器 来 说 并 非 易 
事 ， 并 且 一 些 评论 数据 中 并 没有 显 性 的 表达 出 用 
户 情感 ， 这 更 增 大 了 机 需 学 习 的 难度 。 


国内 外 已 有 许多 学 者 通过 半 监 督学 习 的 方 
法 对 情感 分 类 问题 进行 了 研究 "“ ， 有 研究 者 为 
了 更 好 地 利用 关键 名 和 细节 和 句 之 间 的 差异 性 和 
互补 性 ， 将 抽取 的 关键 句 分 别 用 于 有 监督 和 半 
监督 的 情感 分 类 中 中 ， 但 如 何 准 确 判 断 出 评论 
的 关键 句 仍 是 需要 继续 深入 研究 的 问题 。 有 人 研 
究 者 使 用 大 规模 未 标记 数据 和 少量 情绪 词 实 现 
了 情感 分 类 ,虽然 降低 了 人 工 标 记 数 据 的 成 
本 ， 但 模型 不 能 重复 在 其 他 领域 中 使 用 ， 仍 需 
针对 特定 领域 进行 情感 分 类 学 习 。 在 情感 分 类 
研究 中 也 有 针对 如 何 计算 情感 词 的 情感 度 ， 有 


基金 项 目 : 本 文系 国家 自然 科学 基金 资助 项 目 “ 电 商 环境 下 融入 在 线 社会 关系 的 消费 信贷 价值 度量 研究 ”( 项 目 
编号 : 71571162) 和 浙江 省 自然 科学 基金 资助 项 目 “ 融入 物 联 情境 的 商业 数据 流 挖掘 模型 及 可 靠 性 研究 ”( 项 目 


编号 : LY14F020002) 研究 成 果 之 一 。 


作者 简介 : 焉 春 华 ， 院 长 ,教授 ,博士 ; 急 江 波 (OCIRD: 0000-0002-2811-0004) ， 实 验 员 ， 博 士 研究 生 , E-mail: 


zjgsu518@163.com; 倩 小康， 讲师 ， 博 士 。 
收 稿 日 期 : 2016-10-16 ”发 表 日 期 : 2016-12-30 


464 


本 文责 任 编辑 : 徐 健 


202310.03152v1 


chinaXiv 


学 者 针对 情感 词 的 情感 度 确定 问题 进行 研究 ", 提 
出 了 模糊 层次 分 析 法 来 度量 情感 词 的 情感 度 。 
这 些 方法 的 分 类 结果 依赖 于 手工 标识 的 训练 数 
据 ， 训 练 数据 好 的 分 类 准确 率 也 高 ， 但 实际 情 
况 却 是 每 个 领域 中 手工 标识 形成 分 类 训练 数据 
的 代价 是 很 高 的 ， 如 果 对 每 个 领域 都 进行 手工 
数据 标识 也 是 不 现实 的 ， 因 此 有 研究 者 考虑 到 
情感 分 类 任务 的 领域 相关 性 中， 通过 跨 领域 学 
习 减 少 情感 分 类 的 数据 标记 ， 提 出 一 种 基于 评 
价 对 象 类 别 的 跨 领 域 学 习 方法 ， 但 评价 对 象 类 
别 粒度 较 粗 ， 不 适合 跨 多 个 领域 的 情感 分 类 "1。 
由 此 可 见 ， 在 某 一 个 领域 情感 训练 产生 的 分 类 
准确 的 分 类 器 未 必 能 在 另 一 个 领域 中 表现 出 同 
样 的 准确 性 。 为 了 解决 情感 分 类 算法 领域 依赖 
性 高 、 人 工 数据 标记 成 本 大 等 问题 ， 本 文 对 路 
域 情感 分 类 进行 了 深入 研究 ， 发 现 通过 谱 肾 类 
可 缩短 不 同 领域 间 依 感 词 的 距离 ， 在 已 有 人 研究 
的 基础 上 ， 本 文 希望 借助 情感 无 关 词 来 桥接 源 
领域 与 目标 领域 ， 再 利用 谱 聚 类 算法 将 不 同 领 
域 的 情感 词 聚集 到 一 起 ， 并 考虑 相关 特征 进行 
融合 ， 以 此 实现 跨 领 域 情 感 分 类 。 


@ 概 念 定义 与 问题 描述 
本 节 对 领域 、 情 感 词 、 跨 域 情感 分 类 等 相 
关 概 念 做 出 了 相关 定义 。 


定义 工 领域 : 一 个 领域 DD 代表 现实 世界 中 
一 类 实体 或 概念 的 集合 。 

可 理解 为 超市 中 不 同 的 产品 区 域 ， 有 食 
品 、 文 具 、 家 电 等 ， 图 书馆 中 不 同学 科 领 域 ， 领 
域 的 粒度 可 抽象 或 细 分 ， 具 体 需 根据 实际 情况 
而 定 。 

定义 2 情感 词 : 给 定 一 个 特定 的 领域 ， 情 
感 词 是 那些 能 够 反映 用 户 情 感 倾向 的 词语 。 

这 些 情感 词 与 用 户 短语 表达 出 来 ， 通 过 语 
句 拆 分 可 组 成 情感 词 序列 [ww2ws…wa， 本 研 
究 中 没有 考虑 情感 词 在 语句 的 排序 对 最 终 情 感 
分 类 的 影响 ， 但 考虑 了 情感 词 在 语句 中 的 位 置 
对 最 终 情 感 分 类 的 影响 ， 每 个 特定 的 领域 D 有 
属于 本 领域 的 情感 词 库 W (wiiW) ， 借 鉴 bag- 
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of-words 的 思想 ， 将 c(wi,xi) 表示 为 情感 词 wi 在 
语句 x; 中 出 现 的 频率 。 

定义 3 情感 分 类 : 给 定 领域 ， 根 据 语 句 xi 
整体 语义 表达 划分 情感 类 别 X (正面 y=1 或 负 
面 y=-1) 将 已 标记 情感 类 别 的 语句 组 成 情感 分 
类 中 的 训练 数据 (xsyD)， 将 未 被 标记 情感 类 别 的 
语句 称 为 预测 数据 。 

定义 4 跨 域 情感 分 类 : 给 定 两 个 不 同 的 
领域 ， 源 领域 (D,.) 和 目标 领域 (De ， 假 
定 源 领 域 中 含 已 标记 数据 集 ([xyoyyswal,if1,2..… 
nw.)， 目 标 数据 集 含 未 标记 数据 集 ([x6],jf1,2.… 
nw) ， 如 果 某 个 分 类 器 能 通过 在 源 领 域 训练 学 
习 准 确 预 测 目 标 领域 中 未 标记 的 数据 集 ， 那 么 
将 这 样 的 分 类 称 为 跨 域 情感 分 类 。 

跨 域 情感 分 类 需要 解决 领域 依赖 的 问 
题 ， 即 相 邻 领域 情感 词 的 表达 是 相近 的 ， 而 
实际 情况 中 ， 用 户 通 常会 针对 不 同 的 领域 发 
表 与 领域 相关 的 评论 语 ， 如 表 1 列举 了 新 浪 
微 博 中 用 户 对 电影 和 社会 两 大 类 别 中 相关 热 
点 微 话题 的 评论 ， 用 户 评 语 短语 显 性 或 隐 人 性 
地 表达 了 评论 主体 的 某 些 情感 ， 由 此 看 出 用 
户 对 当前 话题 的 情感 倾向 ， 有 具有 情感 倾向 的 
情感 词 已 在 表 中 用 黑体 标 出 ， 如 正面 情感 词 
“激动 * 激 烈 “ 给 力 ” 等 ,负面 情感 词 “ 痛 苗 “ 折 
磨 :等 . 但 每 个 领域 中 的 情感 词 却 存在 区 别 ， 如 
电影 领域 中 的 负面 情感 词 “俗套 凌乱" 等， 社 
会 领域 中 正面 情感 词 “合理 ”等 ， 其 中 的 “俗套 ” 


类 
类 


“凌乱 “合理 "属于 领域 相关 词 ,， “有 既然“ 毕竟” 
属于 领域 无 关 词 。 


除 此 之 外 ， 位 置 特 征 、 关 键 词 、 词 性 特 
征 也 是 情感 分 类 中 需要 考虑 的 问题 ， 一 般 评 论 
语句 的 最 后 几 个 情感 特征 最 能 表达 评论 者 的 情 
感 ， 其 次 ， 如 果 出 现 如 “但 是 “ 毕 亮 “我 认为 ”等 
转折 关键 词 ， 评 论 者 的 情感 表达 可 能 发 生 转 
变 ， 最 后 ， 大 多 数 能 表达 用 户 情感 的 都 是 形容 
词 或 副词 , 因此 在 情感 分 类 时 , 除 情感 特征 外 , 也 
需要 考虑 上 述 特征 因素 对 情感 分 类 的 影响 。 

因此 ， 结 合 国 内 外 相关 人 研究， 给 出 了 蜂 领 
域 的 情感 分 类 框架 ， 如 图 1 所 示 : 
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表 1 跨 域 情感 词 对 比 


类 别 电影 社会 
《盗墓 笔记 》 记 得 刚 听 说 要 拍 的 时 候 ， 各 种 幻想 《高考 英语 改革 》 数 学 原来 和 英语 一 样 让 我 恶心 啊 ， 虽 然 
负面 情感 ”各 种 猜 ， 激 动 得 很 ， 现 在 真 说 在 准备 的 时 候 ， 全 ”好 多 年 不 碰 了 ， 这 一 碰 又 想起 那些 年 被 英语 和 数学 痛苦 折 
一 翻 担 心 了 ， 毕 竞 以 前 好 多 小 说 拍 出 来 的 效果 是 达 磨 的 我 ， 而 如 今 又 被 一 些 奇 龙 的 数学 数 出 了 内 伤 了 ， 效 的 
不 到 书面 文字 的 差点 死 了 ! 
星 符 妇 能 这 太 算 呢 ? 不 能 算 咖 啡 
正面 情 感 。 《金刚 狠 2) 五 场 上 向 激 列 紧 演 ， 感 受 猴 权 健 大 。 《时 马 训 曙 叶 价格》 怎么 能 这 公营 呢 ? 不 能 仅仅 守 员 呈 人 
“的 肌肉 大 战 恶 势力 ，4D 视觉 效果 更 给 力 。 人 0 
么 高 的 价格 而 且 还 有 人 去 消费 ， 那 就 是 合理 的 ! 
《特殊 身份 》 再 喜欢 的 演员 都 掩盖 不 了 我 对 此 片 ”近日 哈尔滨 雾 考 , 哈尔滨 在 试 供 热 和 气象 因素 双重 作用 下 ， 
的 差 评 。 开 场 画面 就 已 经 让 人 深切 地 感受 到 了 ”空气 质量 直线 下 降 ， 连 续 出 现 灰 者 天 。 昨 日 ， 哈 市 12 个 
负面 情感 ” 20 世纪 90 年 代 香港 警匪片 的 浓烈 汗 自 。 剧 情 俗 ”监测 点 中 8 处 重度 污染 ， 其 中 两 个 监测 点 PM2.5 浓度 超过 
套 不 说 ， 打 斗 场面 真心 也 毫 无 亮点 ， 杜 子 丹 已 经 。 300 毫克 每 立方 米 ， 达 到 严重 污染 。 这 是 今年 秋末 冬 初 首 
过 度 消费 了 武 戏 。 画 面 同样 感到 凌乱 。 次 爆 出 的 最 严重 污染 天 。 出 门 记得 戴 口 罩 ! 
源 领 域 训练 TN (Cw) 
数据 集 > 源 领 域 目标 领 志 2 
[一 情感 情感 | | Es 
目标 领域 训 特征 词 ME < 本 
练 数据 集 Kk 个 聚 类 
情感 词 特 行 
跨 领域 逻辑 ee 
目标 领域 测试 | 八 | 情感 分 类 画 数 《 一] 中 办 | 
四 二 se = Ud 立民 去 4 
数据 集 中 1/(l+expw9) fx) 位 特 和 
关键 词 特 生 
图 1 跨 领 域 情感 分 类 框架 


其 中 目标 领域 情感 特征 词根 据 标 识 数据 获 
得 ， 但 实际 情况 是 该 标识 数据 量 较 少 或 没有 现 
成 的 标识 数据 ， 或 需要 人 工 标识 部 分 数据 。 借 
助 情感 无 关 词 ， 通 过 谱 聚 类 算法 构建 了 源 领 域 
与 目标 领域 的 跨 域 情感 特征 词 复 ， 将 谱 聚 类 得 
到 的 情感 词 特征 与 位 置 特征 、 关 键 词 特征 、 词 
性 特征 等 4 种 因子 融入 逻辑 回归 分 类 算法 中 ， 实 
现 基于 多 特征 融合 的 跨 领 域 情感 分 类 算法 。 
全 跨 域 情感 分 类 模型 

本 文 借鉴 了 林政 等 基于 情感 关键 句 抽取 的 
情感 分 类 方法 名， 但 不 是 为 了 抽取 关键 句 ， 而 
是 将 文献 中 的 特征 得 分 用 于 最 终 情感 分 类 ， 考 
虑 了 情感 特征 ( 即 领域 情感 词 ) 、 位 置 特征 、 关 
键 词 特征 及 词性 特征 ， 其 中 的 情感 特征 通过 多 
领域 谱 聚 类 得 到 ， 词 性 特征 剔除 与 情感 分 类 无 
关 的 词 ， 以 此 达到 跨 领域 情感 分 类 的 日 的 。 因 


4606 


此 ,考虑 上 述 4 个 特征 的 情感 分 类 可 用 公式 (1) 表 
示 ， 此 时 每 一 条 评论 数据 共 4 属 性 特征 ， 都 是 
通过 计算 特征 的 得 分 进行 分 类 ， 前 弱 了 特征 空 
间 对 跨 领域 分 类 的 影响 ,po 是 偏 置 项 , pi、ps、p;、ps 
参数 ， 它 们 可 通过 训练 数据 训练 得 出 。 
Jf (x) = po + Di X fsenimeniallx,) + P2 X 
也 position(x,) + P3 * rawarditas) + Pa X J speech(x,) 
公式 (1) 
通过 公式 (1) 计算 的 值 并 不 能 表达 情感 分 
类 (正面 或 负面 )， 因 此 加 入 公式 (2) ， 达 到 
对 跨 领 域 情感 分 类 的 目的 。 
四 1 
1l+e/™ 公式 (2) 
此 时 函数 5 将 fox) 的 值 域 映 射 到 0 和 1 上 ,这 
样 便 可 达到 情感 分 类 的 目的 。 
3.1 情感 特征 词 
通过 评论 短语 的 情感 特征 词 大 体 可 以 判断 
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评论 者 的 情感 倾向 ， 通 常 在 情感 分 类 时 情感 特 
征 词 的 权重 较 大 ， 跨 领域 分 类 遇 到 的 关键 问题 
就 是 不 同 领域 中 的 情感 特征 空间 不 同 ， 最 终 导 致 
源 领 域 训练 的 分 类 噩 不 能 很 好 的 应 用 到 目标 领域 
中 。 因 此 本 文 借助 领域 无 关 词 作为 桥梁 ”， 通 过 
谱 限 类 方法 实现 跨 领域 的 情感 词 转换 ， 得 到 新 
的 情感 词 特征 空间 , 在 该 空间 里 通过 公式 (3) 计 
算 评论 短语 xi 的 情感 特征 词 的 得 分 。 


n 和 n 。 
》， 条 positive(w; ) — pe negative(w; ) 
n 


faniimentatta) > 
公式 (3) 

每 条 评论 短语 xi 需要 分 词 并 剔除 停顿 词 ， 其 
中 positive(wi) 表示 第 i 条 评论 语句 的 第 j 个 词 
在 谱 聚 类 集中 对 应 情感 词 ， 该 词 在 聚 类 中 代表 
正面 情感 特征 倾向 ，negative(wi) 表示 第 i 条 评 
论语 句 的 第 j 个 词 在 谱 聚 类 集中 对 应 情感 词 ， 该 
词 在 聚 类 中 代表 负面 情感 特征 倾向 ，n 是 该 评论 
短语 中 剔除 停顿 词 后 的 总 词 数 。 
3.2 词性 特征 

词性 特征 属于 领域 无 关 的 特征 ， 虽 然 每 个 
领域 都 有 其 特定 的 特征 空间 ， 但 这 些 特征 空间 
的 词性 都 是 相同 的 ， 有 文献 指出 形容 词 和 副词 
往往 最 能 代表 了 跨 领 域 评论 的 情感 倾向 中， 而 
名 词 则 和 领域 相关 ， 因 此 考虑 目标 领域 的 词性 
特征 进行 情感 分 类 , 参照 B. Pang 等 学 者 的 方法 口 
首先 对 评论 短语 进行 POS 词性 标注 ， 再 按照 预 
定义 的 规则 抽取 目标 领域 评论 短语 中 的 形容 词 
和 副词 词语 ; 最 后 使 用 公式 (4) 计算 每 条 评论 短 
语 的 词性 比重 得 分 。 


Wi 公式 (4) 


A ) = 
speech(x;) 


其 中 wi 等 于 按照 预定 义 规则 抽取 的 第 i 条 
评论 短语 中 形容 词 和 副词 词语 总 数 ，n 等 于 第 
i 条 评论 短语 中 提出 评论 短语 后 的 总 词 数 。 该 
公式 表示 形容 词 和 副词 在 评论 短语 中 所 占 的 比 
重 ， 即 形容 词 和 副词 对 情感 分 类 的 影响 程度 。 
3.3 位 置 特征 

一 条 评论 语句 中 可 能 包含 多 个 正面 情感 
词 和 负面 情感 词 ， 但 通常 最 可 能 表达 评论 者 情 
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感 的 情感 词 出 现在 评论 的 开始 或 结尾 ， 需 考虑 
情感 评论 中 的 位 置 特 征 对 情感 分 类 的 影响 ， 
此 ， 位置 特 征 的 得 分 可 通过 公式 (5) 计算 得 出 。 


M 2 
vost) 竺 i * pos(w;) 十 Dr pos(w;) 十 C 


公式 (5) 

pos(w;) 表示 第 j 个 词 在 第 i 条 评论 语句 中 
的 位 置 ， 可 看 出 位 置 特征 服从 一 元 二 次 函数 ， 即 
抛物 线 图 像 ， 以 此 达到 凸显 句 前 和 句 尾 词 在 情 
感 分 类 中 重要 性 的 目的 ， 但 也 不 能 与 中 间 位 置 
差异 过 大 ， 因 此 抛物 线 的 开口 应 该 大 ， 防 止 两 
端 值 对 情感 分 类 的 影响 过 大 。 

其 中 满足 : 


M 表示 xi 中 的 总 字数 ， 中 间 位 置 是 函数 的 
最 低 点 ， 此 处 计算 的 情感 词 得 分 较 低 ， 而 位 于 
评论 开头 和 结尾 的 情感 词 得 分 较 高 。 由 于 针对 
短评 数据 ， 句 中 特征 词 数据 较 少 ， 难 以 判断 情 
感 分 类 ， 此 时 位 置 特征 的 影响 力 前 弱 ， 可 适当 
调整 的 取 值 ， 调 整 位 置 特征 的 得 分 。 
3.4 关键 词 特 征 

情感 分 类 中 ， 评 价 短语 中 的 关键 词 能 够 反 
映 出 评论 这 情感 倾向 的 变化 ， 因 此 需 考 虑 关键 
词 特征 对 情感 倾向 性 的 影响 ， 本 文 归纳 了 多 领 
域 中 的 20 个 常用 关键 词 用 于 实验 ， 这 些 情 感 词 
包括 : 总 之 、 我 认为 、 然 而 、 毕 竞 、 但 是 、 既 
然 等 ， 这 里 不 再 一 一 列 出 。 关 键 词 特征 的 计算 
如 公式 〈6) 所 示 : 

J eon 三 2 1keyword (w;) 公式 (6) 


其 中 =1w, e keyword 


keyword(w, ) = [ he 
3.5 基于 多 特征 融合 的 跨 域 情 感 分 类 算法 
为 了 实现 跨 领 域 情感 分 类 ， 本 算法 除了 
通过 谱 取 类 算法 将 情感 词 特征 空间 进行 映射 以 
还 融入 了 词性 特征 、 位 置 特征 、 关 键 词 特 
在 新 的 特征 空间 上 训练 得 到 逻辑 回归 分 类 
具体 算法 步 又 如 下 


By 
= 


合 
mi 


六 


202310.03152v1 


chinaXiv 


知识 管理 论坛 


2016 年 第 6 期 (总 第 6 期 ) 


< 局 王 


wiviw.kmf.ac.cn 


算法 1: 基于 多 特征 融合 的 跨 域 情感 分 类 
算法 
输入 : 源 领 域 训练 数据 ， 少 量 目标 领域 训 
练 数据 ， 聚 类 个 数 k; 
输入 : 逻辑 回归 分 类 器 。 
算法 步骤 ; 
步 又 (1 ) 
词 ; 
步骤 (2 ) ”针对 源 领域 训练 数据 和 
少量 目标 领域 训练 数据 采用 谱 聚 类 算法 
得 到 k 个 聚 类 ; 
步骤 (3 ) ”根据 谱 聚 类 结果 通过 公 
式 (3) 计算 训练 数据 集 的 情感 特征 词 
的 得 分 ; 
步骤 (4) 
性 特征 得 分 ; 
步骤 (5) 通过 公式 (5) 计算 训 
练 数据 集 的 位 置 特征 得 分 ; 
步骤 (6) 根据 关键 词 词典 通过 
式 (6) 计算 训练 数据 集 的 关键 词 特 和 
得 分 ; 
步骤 (7) 对 训练 数据 集 进 行 词 性 
标注 ， 抽 取 训 练 数据 集中 的 副词 和 形容 
词 ; 
步骤 (8) 将 训练 数据 集 进 行 转 
换 ， 以 情感 词 、 位 置 、 关 键 词 、 词 性 、 情 
感 为 特征 ， 构 建新 的 训练 数据 集 Die。; 
步骤 (9) 根据 新 的 训练 数据 集 通 
过 梯度 下 降 法 学 习 得 到 公式 (1) 中 参 
数 po，p1，p;，p3，ps 的 值 ; 
步骤 (10 ) 将 参数 带 入 公式 (2) 输 
出 逻辑 回归 分 类 需 。 
算法 2: 谱 聚 类 算法 站 
输入 : 源 领域 训练 数据 ， 目 标 领域 训练 数 
据 ， 聚 类 个 数 k; 
输出 : k 个 聚 类 。 算 法 步骤: 
步骤 (1) 根据 领域 无 关 和 领域 相 
关 词 语 构 造 双向 图 G (Vps U Von E)，, 计 
算 图 双向 图 的 带 权 领 接 矩阵 We 


别 除 训练 数据 集 停顿 


通过 公式 (4) 计算 词 


mi 
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Rom ， 如 果 ij，WiFmi， 和 否则 Wi=0; 

步骤 (2) 计算 对 角 和 矩阵 D， 其 
中 D;:=ZW:; ， 构 建 图 的 拉 普 拉 斯 矩 阵 
L=D “WD; 

步骤 (3) 计算 拉 普 拉 斯 矩阵 工 
的 前 k 个 最 大 特征 值 对 应 的 特征 向 量 并 
构建 成 特征 矩阵 U=[u,u.…ujeRw 

步骤 (4) 标准 化 特征 矩阵 U， 

Wi 


y 


U; 2 1/2 
(2 1Uj) 


步骤 (5) 在 和 矩阵 U 上 使 用 
K-means 算法 ， 将 nm 个 点 聚 类 到 k 个 聚 
类 中 ， 


步骤 (6 ) 
@@ 实验 分 析 与 结果 


4.1 实验 设置 

为 了 验证 模型 的 有 效 性 ， 本 文采 用 Java 语 
言 ， 基 于 weka 的 逻辑 回归 源 代码 实现 了 算法 
CDFF。 针 对 了 数据 集 ， 采 用 中 国 科 学 院 计算 
技术 研究 所 的 分 词 软件 接口 ICTCLAS (Chttp:/ 
ictclas.org) 和 开源 项 目 改 Analyzer， 加 入 了 搜 
狗 实 验 室 中 的 互联 网 词 库 (http://www.sogou. 
com/labs/resources.html) 和 本 文 搜集 整理 的 停 
顿 词 由 ， 实 现 了 对 文本 进行 分 词 及 词性 附加 
操 ; SVM 算法 使 用 的 是 标准 工具 包 light-SVM 
(http://svmlight.joachims.org ) 采 用 线性 核 函 数 通 
过 谱 聚 类 算法 实现 蜂 领 域 情 感 词 的 转换 ， 由 于 
情感 特征 的 得 分 依赖 于 聚 徐 ， 因 此 实验 中 会 调 
整 聚 类 参数 k 的 值 来 比较 跨 领 域 情 感 分 类 的 效 
果 。 
4.2 实验 结果 与 分 析 

本 文 用 到 的 数据 集 来 自 网 络 用 户 对 酒店 、 电 
脑 (笔记 本 ) 与 书籍 3 个 领域 的 短评 平衡 数 
据 (http://www.searchforum.org.cn/tansongbo/ 
corpus-senti.htm) ， 其 中 每 个 领域 的 正 负 类 各 2 
000 篇 ， 共 12 000 条 平衡 评论 数据 ， 数 据 集 的 
具体 组 成 如 表 2 所 示 : 


返回 k 个 聚 类 。 
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示 目 标 领 域 。 采 用 支持 向 量 机 (SVM) 、SFA 
(Spectral Feature Alignment) 、SCL (Structural 


表 2 数据 集 描述 
数据 名 称 正面 评论 


(单位 : 条 ) 


负面 评论 。 平均 长 度 


酒店 2 000 2 000 118 Correspondence Learning) "13 种 算法 与 本 文 算 
电脑 (笔记 本 ) 2 000 2 000 87 法 CDFF 作对 比 ， 针 对 每 个 算法 的 实验 都 采用 
书籍 2 000 2 000 102 五 折 交 又 验证 ， 即 随机 划分 每 一 领域 数据 为 5 


份 , 每 次 取 其 中 4 份 进行 训练 , 一 份 进行 测试 , 然 
数据 集 上 领域 的 相关 度 并 不 是 很 大 ， 为 。” 后 把 5 次 分 类 结果 的 平均 结果 作为 最 终结 果 。 
了 验证 本 算法 的 有 效 性 ， 采 用 6 个 跨 领 域 情感 考虑 到 谱 聚 类 中 聚 筷 的 个 数 会 影响 情感 特 
分 类 任务 方案 : 酒店 二 电脑， 酒店 一 书籍 ， 电 ”人 征 词 的 得 分 ， 因 此 在 实验 中 分 别 设置 秘 的 个 数 
脑 一 酒店 ， 电 脑 一 书籍 ， 书 籍 一 酒店 ， 书 籍 。 为 5、10、15 来 度量 其 对 情感 分 类 的 影响 。 具 
一 电脑 ， 其 中 箭头 前 表示 源 领域 ， 箭 头 后 表 。” 体 如 表 3 所 示 : 
表 3 跨 领 域 分 类 结 


所 跨 领 域 SVM SCL SFA SR 
(k=5) (k=10) (k=15) 
酒店 一 电脑 0.692 1 0.724 8 0.749 1 0.693 2 0.732 6 0.745 8 
酒店 一 书籍 0.7193 0.741 5 0.731 3 0.724 3 0.793 1 0.748 8 
电脑 一 酒店 0.692 3 0.749 1 0.7610 0.703 5 0.755 3 0.735 0 
电脑 一 书籍 0.762 1 0.798 0 0.811 3 0.782 7 0.829 8 0.8177 
书籍 一 酒店 0.663 2 0.669 4 0.7317 0.724 2 0.793 8 0.7817 
书籍 一 电脑 0.765 3 0.806 8 0.812 4 0.818 2 0.8297 0.813 9 
跨 领 域 分 类 准确 率 平 均值 0.7157 0.748 3 0.766 1 0.7410 0.782 4 0.773 8 
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从 表 3 的 跨 领域 平均 准确 值 中 可 以 看 出 本 
算法 的 实验 结果 较 SFA 算法 高 ， 高 出 情感 分 类 
的 准确 率 随 聚 簇 的 个 数 增加 而 增加 ， 但 当 k=15 
时 ， 准 确 率 增加 的 效果 已 不 明显 ， 但 从 5 个 簇 
到 10 个 复 时 ， 分 类 准确 率 提高 ， 由 此 可 见 谱 聚 
类 个 数 会 影响 跨 领 域 情感 分 类 的 结果 。 


本 算法 除 考 虑 情感 特征 词 外 还 加 入 了 位 
置 特征 、 关 键 词 特征 、 词 性 特征 ， 为 了 验证 加 
入 这 些 特征 的 有 效 性 ， 通 过 固定 聚 徐 的 个 数 
(k=10) ， 逐 次 加 入 这 些 特征 后 对 比 算法 准 
确 性 ， 来 观察 不 同 特征 对 跨 领 域 情感 分 类 的 影 
响 ， 具 体 如 表 4 所 示 : 


表 4 依次 加 入 相关 特征 后 的 跨 领域 情感 分 类 准确 率 


加 入 特征 酒店 一 电脑 ”酒店 一 书籍 电脑 一 酒店 电脑 一 书籍 书籍 一 酒店 书籍 一 电脑 
加 入 情感 词 特征 0.684 3 0.738 1 0.732 7 0.8109 0.725 1 0.782 6 
加 入 词性 特征 0.686 4 0.745 1 0.755 3 0.819 9 0.733 8 0.797 4 
加 入 位 置 特 征 0.708 9 0.749 6 0.785 6 0.820 3 0.747 8 0.813 3 
加 入 关键 词 特征 0.739 3 0.750 2 0.799 0 0.825 8 0.775 2 0.8277 
从 表 4 中 可 以 看 出 依次 分 别 加 入 词性 特 。 @ 总 结 与 展望 


征 、 位 置 特征 、 关 键 词 特征 后 跨 领 域 情 感 分 类 
的 准确 率 均 有 所 提高 ， 但 是 每 个 特征 的 贡献 率 
不 同 ， 从 表 4 中 可 看 出 ， 位 置 特 征 和 关键 特征 
的 贡献 率 平均 大 于 词性 特征 的 贡献 率 。 因 此 通 
过 上 述 两 个 实验 验证 了 基于 多 特征 融合 的 跨 领 
域 分 类 算法 可 提高 情感 分 类 准确 率 。 


虽然 人 们 可 以 很 容易 的 从 某 条 评论 数据 中 
推测 出 当时 评论 者 的 情感 ， 但 对 于 机 噩 来 说 并 
非 易 事 ， 本 文 借助 情感 无 关 词 搭建 源 领 域 与 目 
标 领 域 的 桥梁 ， 通 过 谱 聚 类 算法 将 不 同 领域 的 
情感 词 聚 集 到 一 起 ， 应 用 谱 凤 得 到 的 特征 集 计 


202310.03152v1 


chinaXiv 


ChinaXiv 合 作 期 刊 
< 于 1/ 二 知 iR 管 理论 二 


wiww.kmf.ac.cn 2016 年 第 6 期 ( 总 第 6 期 ) 
算 目 标 领域 测试 数据 的 情感 得 分 ， 与 传统 谱 聚 wp-content/uploads/2010/04/Cross-Domain-Sentiment- 
> y > y Classification-via-Spectral-Feature-Alignment.pdf. 
3 几 > 司 ， 领域 情感 人 准 压 不 虑 Pp' 8 p' 
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参考 文献 a thesaurus[J]. IEEE transactions on knowledge and data 

EA engineering, 2013, 25(8): 1719-1731. 

[1] PANG B, LEE L, VAITHYANATHAN S. Thumbs [12] TANS B,CHENG X Q, GHANEM M M,et al. A 


up? Sentiment classification using machine learning novel refinement approach for text categorization[EB/ 


techniques[EB/OL].[2015-10-12].http://www.cs.cornell. OL].[2015-11-02]. http://dl.acm.org/citation. 


edu/home/llee/papers/sentiment.pdf. cfm?id=1099554.1099687. 


[2] ”林政 , 谭 松 波 , 程 学 旗 . 基于 情感 关键 句 抽取 的 情感 分 [13] BLITZER J, DREDZE M, PEREIRA F. Biographies, 
类 研究 []. 计算 机 研究 与 发 展 ,2012, 9(11): 2376-2382. bollywood, boom-boxes and blenders: domain adaptation for 

[3] “ 代 大 明 ， 王 中 卿 ， 李 寿山 ,等 . 基于 情绪 词 的 非 监督 中 文 sentiment classification[EB/OL].[2015-11-11].http://www. 
情感 分 类 方法 研究 四 中 文 信息 学 报 ,2012, 26(4): 103-108. cs.jhu.edu/~mdredze/publications/sentiment acl07.pdf 

[4] ”李纲 , 王 忠 义 , 寇 广 增 . 情感 分 类 中 情感 词 的 情感 倾向 
度 的 计算 方法 研究 四 . 情报 学 报 , 2011, 28(3): 292-298. 作者 贡献 说 明 : 


[5] “ 张 慧 , 李 寿 山 , 李 培 峰 , 等 . 基于 评价 对 象 类 别 的 跨 领 域 静 春 华 : 提出 基于 多 特征 融合 的 跨 域 情感 分 类 模型 ， 论 文 撰 


情感 分 类 方法 研究 四 .计算 机 科学 ,2013,40(1): 229-233， 。。 号、 修改 ; 二 
[6] PAN SJ,NIXC,SUNJT,etal.Cross-domain sentiment 分 江波 :实现 基于 多 特征 融合 的 跨 域 情感 分 类 模型 出 法 ， 论 


classification via spectral feature alignment[EB/OL]. 文 撰写 、 修 改 、 定 稿 ， 
[2015-10-18].https:/www.microsoft.com/en-us/research/ 传 小 康 ， 参 与 模型 提出 和 算法 实现 ， 论 文 撰写 、 修 改 。 


Cross-domain Emotion Classification Model Based on the Multi-feature Fusion 


Ju Chunhua ”Zou Jiangbo™”” Fu Xiaokang” 
:School of Management Science & E-commerce, Zhejiang Gongshang University, Hangzhou 310018 
"Center for Studies of Modern Business, Hangzhou 310000 
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Abstract: [Purpose/significance] The sentiment classification is still one of the cross-cutting issues needed 
to focused on. [Method/process] With the help of emotion unrelated words, by the spectral clustering 
algorithm, the authors constructed a cross-domain feature words emotion cluster in the source and target 
areas of the field. The position of the features and characteristics of emotional words, keyword features, 
and POS features were integrated into the logic of the regression classification algorithm to achieve a cross- 
cutting emotion classification algorithm based on the multi-feature fusion. [Result/conclusion] Research 
results show that CDFF (Cross-domain pulse Four Factors) algorithm ls effective when the cross-domain user 
emotion ls classified and its provide reference for same study. 

Keywords: cross-domain sentiment classification multi-feature fusion spectral clustering transfer learning 
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